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基于 生成 对 抗 网 络 的 遮挡 表情 识别 


王 素 努 ， 高 宇 豆 ， 张 加 其 


(华北 电力 大 学 控制 与 计算 机 工程 学 院 ， 北京 102206) 


摘 要 : 针对 实际 应 用 中 局 部 遮挡 会 影响 人 脸 表 情 识别 ， 提 出 一 种 基于 生成 对 抗 网 络 《GAN) 的 表情 识别 算法 ， 先 对 
遮挡 人 脸 图 像 填 补 修复 ， 再 进行 表情 识别 。 其 中 GAN 的 生成 器 由 卷 积 自动 编码 机 构成 ， 与 鉴别 器 的 对 抗 学 习 使 得 生 
成 的 人 脸 图 像 更 加 逼真 。 由 卷 积 神 经 网 络 构成 的 鉴别 器 具有 良好 的 特征 提取 能 力 ， 添 加 多 分 类 层 构 成 了 表情 分 类 器 ， 
避免 了 重新 计算 图 像 特征 。 为 了 解决 训练 样本 不 足 的 问题 ,将 celepA 人 脸 数据 集 用 于 训练 人 脸 填 补 修复 ， 同 时 表情 分 
类 器 的 特征 提取 部 分 得 到 了 预 训练 。 在 CK+ 数 据 集 上 的 实验 证 明 ， 填 补 后 的 人 脸 图 像 真实 连贯 ， 并 取得 了 较 高 的 表情 
识别 率 ， 尤 其 提高 了 人 脸 大 面积 遮挡 的 识别 率 。 
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Occluded facial expression recognition based on generative adversarial networks 


Wang Suqin, Gao Yudou, Zhang Jiaqi 
(School of Control & Computer Engineering, North China Electric Power University, Beijing 102206, China) 


Abstract: Aiming at the fact that partial occlusion affects facial expression recognition in practical applications, an expression 
recognition method based on generative adversarial networks (GAN) is proposed. Firstly, the occlusion face images are filled 
and repaired, and then the expression recognition is performed. The generator of GAN is composed of a convolutional Auto- 
encoder, the face images generated by adversarial learning between generator and discriminator are more vivid. The 
discriminator is composed of the convolutional neural network and it has good feature extraction ability, and a multi- 
classification layer is added to construct the expression classifier, which avoids feature re-calculation. In order to solve the 


problem of insufficient training samples, the celebA face dataset is used to train face filling and repairing, and the feature 


extraction part of the expression classifier ls pre-trained. Experiments on the CK+ dataset Show that the face images after filling 


are real and coherent, and a higher expression recognition rate is achieved, especially the recognition rate of large-area occlusion 


of the face is 1mproved. 
Key words: facial expression recognition; partial occlusion; face completion; generative adversarial network; convolutional 


neural network 


眼镜 、 口 单 等 ， 这 些 遮 挡 会 干扰 表情 特征 的 提取 ， 影 响 表 情 判 

别 的 准确 性 。 

人 类 情感 多 借助 于 面部 表情 进行 传递 趾 ， 利 用 图 像 处 理 技 前 对 局 部 遮挡 的 人 脸 进 行 表情 识别 一 般 采 用 非 深度 学 习 
术 对 人 脸面 部 表情 进行 识别 具有 重要 意义 。 随 着 计算 机 技术 的 。” ”的 方法 ， 其 主要 思路 总 体 上 分 为 舍弃 法 和 填补 法 两 种 。 舍 弃 法 
进步 以 及 GPU 等 电脑 硬件 的 发 展 ， 表 情 识别 得 到 了 长 足 的 发 ”是 通过 稀疏 表示 等 方法 将 遮挡 部 分 的 信息 简化 或 者 丢弃 ， 主 要 
展 。 文 献 [2~4] 使 用 卷 积 神经 网 络 CNN 在 标准 的 表情 数据 集 上 根据 未 遮挡 部 位 进行 表情 识别 。 文 献 [6,7] 基 于 稀疏 表示 提出 了 
取得 了 很 好 的 识别 准确 率 。 除 了 常见 的 7 种 基本 表情 ， 微 表情 ”遮挡 人 脸 表 情 识别 方 法 ， 利 用 未 距 挡 部 分 构建 字典 ， 通 过 稀 玻 
续 时 间 很 短 ， 却 饱含 了 人 们 隐藏 的 真实 情感 ， 对 其 进行 识别 ”求解 得 到 稀疏 表示 系数 ， 最 终 实现 待 测 人 脸 图 像 的 表情 判别 。 
表情 识别 领域 的 一 个 研究 热点 ， 将 微 表 情 识 别 用 于 测 谎 ， 对 于 人 的 嘴巴 、 眼 睛 、 鼻 子 等 含有 大 量 的 表情 信息 ， 当 这 些 部 
共 安全 、 侦 察 破案 等 具有 十 分 重要 的 作用 四。 但 在 实际 应 用 ”位 被 遮挡 时 ， 直 接合 弃 明显 不 合理 。 填 补 法 则 是 先 对 遮挡 部 分 
中 ,拍摄 到 的 人 脸 图 像 往往 存在 局 部 遮挡 ,常见 的 遮挡 物 有 手 、 进行 填补 ， 尽 可 能 还 原 人 脸 未 遮挡 的 状态 ， 再 进行 表情 识别 。 
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2 
录用 入 王 素 芭 ， 等 Gn 
薛 雨 丽 等 人 外 采用 和 鲁 棒 主 成 分 分 析 法 和 显著 性 检测 法 重 构 被 让 ”模型 在 人 脸 数 据 集 上 进行 了 图 像 填补 实验 ， 从 模型 生成 的 人 脸 
挡 像 素 ， 然 后 由 权 值 更 新 的 AdaBoost 分 类 器 对 去 除 遮 挡 的 人 ”图像 中 找到 与 原始 图 像 最 相似 的 一 幅 ， 然 后 根据 其 遮挡 区 域 的 
侈 图 像 进行 表情 识别 。 由 于 其 使 用 的 信息 较为 局 限 ， 难 以 保证 ” 位 置 掩 码 来 蔡 代 填补 原始 图 像 ， 该 方法 可 以 填补 得 到 一 张 内 容 
填补 效果 ， 同 时 人 工 特征 的 设计 繁琐 ， 难 以 应 对 复杂 的 场景 变 上 完整 的 人 脸 图 像 ， 但 存在 图 像 整 体 连贯 性 较 差 ,适用 性 受 限 
化 ,和 鲁 棒 性 较 差 。 文 献 [9,10] 利 用 卷 积 神经 网 络 直接 进行 有 遮挡 。 ”等 问题 。 文 献 [1 生 提出 了 一 个 基于 深度 生成 模型 的 人 脸 修 复 算 
的 人 脸 表 情 识别 ,提高 了 识别 的 鲁 棒 性 , 但 当 遮 挡 区 域 较 大 时 ， 法 ， 它 使 用 了 两 个 鉴别 器 ， 分 别 判断 整个 图 像 区 域 和 缺失 区 域 
准确 率 迅 速 下 降 。 的 真 假 ， 最 后 使 用 一 个 解析 网 络 进一步 完善 缺失 区 域 的 生成 图 
因此 ， 对 于 有 让 挡 特别 是 大 面积 遮挡 的 人 脸 图 像 ， 考 虑 先 像 ， 该 算法 能 够 生成 比较 逼真 的 人 脸 图 像 ， 但 将 其 结果 直接 用 
将 其 遮挡 区 域 进行 填补 ， 使 整 幅 图 像 看 上 去 真实 连贯 ， 有 利于 于 表情 识别 存在 诸多 不 适应 ， 因 为 本 文 的 目的 是 为 了 得 到 正确 
表情 判别 本文 基于 生成 对 抗 网 络 构建 一 个 放 挡 表情 识别 模型 ， 的 表情 类 别 ， 其 填补 内 容 需 要 在 不 误导 表情 判别 的 基础 上 ， 合 
充分 利用 图 像 中 未 遮挡 区 域 的 像素 信息 ， 输 入 到 由 卷 积 自 动 编 里 地 增加 表情 信息 。 
码 机 构建 的 生成 器 中 进行 人 脸 遮 挡 图 像 的 填补 修复 ， 鉴 别 器 在 除了 生成 视觉 逼真 的 图 像 ，GAN 还 可 以 用 于 分 类 。 深度 衬 
大 量 对 抗 训练 中 可 以 学 习 到 人 脸 图 像 的 特征 表示 ， 基 于 该 特征 。 经 网 络 在 图 像 识 别 、 对 象 分 类 等 领域 取得 的 成 功 很 大 程度 上 取 
表示 添加 多 分 类 层 构成 分 类 器 可 以 对 填补 后 的 图 像 进行 表情 识 。 决 于 大 量 的 手动 标注 的 训练 数据 集 ， 然 而 在 许多 应 用 中 ， 这 样 
别 。 带 标签 的 数据 量 往往 不 能 满足 深度 模型 训练 的 需要 ， 将 无 标签 
1 ”相关 工作 的 样本 数据 加 入 训练 可 进行 半 监 督 分 类 。 文 献 [15,16] 提 出 了 将 
GAN 的 鉴别 器 由 原来 的 二 分 类 改 为 一 个 多 分 类 器 , 此 时 生成 器 
生成 对 抗 网 络 (generative adversarialnetworks,GAN ) (U1 是 输出 样本 可 用 于 训练 分 类 器 ， 作 为 N 分 类 问题 的 第 N+1l 类 。 


当前 人 工 智 能 领域 的 一 大 研究 热点 ， 是 一 种 生成 式 模型 ， 由 生 
成 器 (generator，G) 和 鉴别 器 (discriminator，D) 共同 组 成 。 
生成 器 通过 学 习 真 实 样本 数据 的 分 布 规 律 来 生成 尽 可 能 真实 的 
伪 数 据 ， 而 鉴别 器 本 质 上 为 一 个 二 分 类 器 ， 它 需要 甄别 出 输入 
数据 是 真实 样本 还 是 生成 器 的 输出 。 受 二 人 零 和 博弈 思想 的 启 
发 ,提出 让 生成 器 和 鉴别 器 之 间 相 互 对 抗 , 在 对 抗 中 欠 代 优化 ， 
不 断 提 升 各 自 的 生成 能 力 和 鉴别 能 力 ， 使 生成 器 能 够 估 测 到 数 
据 样 本 的 分 布 ， 生 成 的 样本 效果 通 真 。 

GAN 模型 在 图 像 生 成 、 图 像 修 补 以 及 图 像 去 噪 等 领域 应 
广泛 ， 同 时 衍生 出 许多 改进 的 模型 。 文 献 [12] 将 GAN 和 卷 积 4 
经 网 络 (CNN) 结 合 起 来 得 到 深度 卷 积 生 成 对 抗 网 络 (DCGAN)， 


生成 器 和 鉴别 器 均 为 卷 积 神经 网 络 ， 在 各 个 数据 集 上 进行 训练 
都 得 到 了 不 错 的 结果 ， 其 特征 表达 能 力 强 ， 使 用 得 到 的 特征 表 
示 进 行 图 像 分 类 ， 效 果 较 好 。Brandon Amos 等 人 中 直接 使 用 该 
| 2 Re 
ee 编码 器 


Ee 


模型 主要 由 生成 器 G、 鉴 别 器 D 和 分 类 器 C 三 个 部 分 构 
成 ， 功 能 上 则 可 分 为 人 脸 填 补 和 表情 识别 两 个 模块 。 人 脸 填补 
模块 由 生成 器 和 鉴别 器 组 成 ， 将 遮挡 人 脸 图 像 输 入 到 生成 器 中 
得 到 填补 后 的 人 脸 图 像 ， 为 了 使 填补 效果 更 真实 合理 ， 通 过 鉴 
别 器 来 判断 图 像 为 真实 无 遮挡 人 脸 〈 真 ) 还 是 生成 器 填补 图 像 


该 模型 不 仅 利 
中 学 习 特 征 。 
多 分 类 问题 , 因此 
鉴别 器 和 表情 分 类 器 结 
造 GAN 模型 
可 以 用 于 多 分 类 任务 ， 同 时 生成 器 的 输出 样 
本 数量 的 作用 ， 提 高 分 类 模型 的 泛 化 能 力 。 


2 ”本 文 模型 


本 文 基于 GAN 构建 了 一 个 鲁 棒 的 遮挡 
于 一 幅 遮 挡 的 人 脸 图 像 ， 首 先 要 合成 其 遮挡 
补 图 像 ， 进 而 正确 地 判断 表情 类 别 。 模 型 的 总 体 架 构 如 
示 ， 图 中 以 黑色 拢 形 框 模拟 遮挡 物 。 


| | 鉴别 器 D 
Y Dy -ha! | | 


填补 图 像 


— 


有 标签 的 训练 样本 ， 而 且 从 无 标签 的 生 


基于 这 种 半 监 督 分 类 的 思想 ， 
合 起 来 ， 若 使 | 


| 
| 
| > 
分 类 器 C 

‘wr - 

Mw 

Je 
原始 图 像 


图 1 模型 的 总 体 架 构 


( 假 )。 表情 识别 模块 在 鉴别 器 的 基础 上 , 使 用 了 


其 部 分 卷 积 


成 样本 


本 文 对 人 脸 进行 填补 修复 以 后 还 要 完成 一 个 表情 
考虑 将 GAN 的 
深度 卷 积 神经 网 络 来 构 
的 鉴别 器 ， 其 本 身 就 县 有 很 强 的 特征 提取 能 

本 也 发 挥 了 扩充 样 


表情 识别 模型 ， 对 
区 域 的 内 容 得 到 填 


图 1 所 


Ml 


和 池 化 层 ， 将 其 作为 特征 提取 器 ， 额 外 加 入 两 
层 构成 了 表情 分 类 器 。 
生成 器 G 


Mil 


Softmax 


2.1 


全 连接 


层 和 


不 同 于 原始 GAN, 本 文生 成 器 G 的 输入 不 再 是 随机 噪声 ， 
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而 是 遮挡 人 脸 图 像 。 其 本 质 上 是 一 个 卷 积 
器 和 解码 器 组 成 ， 首 先 编码 器 通过 多 次 卷 积 池 
入 映射 到 一 个 隐藏 层 表 示 ， 其 中 包含 了 原 亡 挡 图 像 中 已 知 
和 待 填补 区 域 之 间 的 隐 舍 关系 ， 解 码 器 利 / 
填补 内 容 。 生 成 器 的 网 络 结构 如 恨 
器 网 络 结构 对 称 , 互 为 逆 操 作 。 编 码 器 参考 VGG 
卷 积 层 Conv0 和 池 化 层 Pooling0 组 成 , 其 中 Conv(64,3X3， 

1X1) 表 示 该 卷 积 层 由 64 个 大 小 为 3X3， 步 长 为 1 的 卷 积 核 组 
成 ， 在 每 个 卷 积 层 后 都 紧 接 一 个 LeakyReLU 激活 
Batch normalization 归 一 化 层 ， 在 池 化 
pooling(2X2) 表 示 窗 口 大 小 为 2X2 的 池 化 层 ， 负 责 下 采样 。 

相应 地 ， 解 码 器 通过 卷 积 层 Conv0 和 上 采样 层 Upsampling() 逐 
步 恢复 人 脸 图 像 ， 在 编码 器 和 解码 器 之 | 
数 为 1024 的 全 连接 层 Dense(1024) 作 为 中 


2.2 鉴别 器 D 


自动 编码 机 ， 
化 操作 将 模型 输 


2 所 示 ， 


j 这 些 隐 含 信息 生 
其中 编码 器 和 解 
站 的 模型 结构 ， 


民 和 一 个 


层 中 进行 最 大 池 化 操作 ， 


鉴别 器 D 对 输入 图 像 进行 真 假 


司 采 用 了 两 层 


间 层 。 


分 类 。 鉴别 器 的 输入 维度 


和 生成 器 的 输出 维度 一 致 ， 都 为 128X128。 在 DCGAN 中 鉴别 
器 为 卷 积 核 大 小 为 5X5 的 全 卷 积 网 
层次 不 深 导致 其 特征 提取 能 力 有 限 ， 


E 提 和 


分 类 是 足够 的 ， 但 为 了 将 其 特 生 


络 , 由 了 
若 仅 ) 
区 部 分 和 后 续 表情 分 类 器 的 


F 卷 积 核 较 大 、 
] 于 一 般 意义 上 的 二 
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Pooling (2x2) 
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一 一 J 一 一 
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Conv (512,3x3,1x1) 


ee 


Conv (512,3x3,1x1) 


可 
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特征 提取 部 分 整合 起 来 ， 需 要 一 个 网 络 更 深 、 结 构 更 好 的 深度 
卷 积 神经 网 络 。 其 中 VGG16 的 卷 积 
尿 , 包括 13 个 卷 积 层 和 3 个 全 连接 
激活 层 交 蔡 的 结构 使 得 其 特征 提取 能 力 较 强 ， 同 时 模型 深度 、 


性 能 等 方面 也 较 适合 ， 因 此 本 文 基于 VGG16 构建 了 鉴别 器 。 


核 大 小 为 3X3, 一 
层 , 多 个 卷 积 层 与 非 线 性 的 
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Ee 
Conv (256,3x3,1x1) 


UpSampling (2x2) 
FE 


Conv (512,3x3,1x1) 


Pooling (2x2) 


(vzo 


(vzo 


观 
MD 


> Conv (512,3x3,1x1) 


生成 器 网 络 结构 


2.3 分 类 器 C 


计算 机 为 了 完成 表情 识别 任务 ， 需 要 大 量 的 带 表 情 标 签 的 


训练 数据 ， 然 而 现 有 的 表情 数据 集 的 数据 有 限 ， 特 别 是 将 深度 
卷 积 神经 网 络 引入 后 ， 更 是 需要 大 量 的 数据 支撑 ， 如 果 数 据 太 


少 模型 在 训练 中 会 很 容易 达到 过 拟 合 不 能 发 挥 模型 本 身 的 能 


CK+I8 数 据 集 (The Extended Cohn-Kanade AU-Coded Database) 


是 标准 的 人 脸 表 情 数据 集 ， 其 中 仅 含 有 327 个 带 标签 的 峰值 表 
情 图 像 ， 即 使 将 部 分 非 峰 值 表情 图 像 也 加 入 训练 仍然 不 够 。 不 
过 在 人 脸 填 补 模块 ， 模 型 的 训练 并 不 需要 表情 标签 ， 因 此 可 以 
利用 现 有 的 大 量 的 人 脸 图 像 数 据 进 行 训练 ， 鉴 别 器 在 训练 过 程 


Et 


不 断 加 强人 脸 特 征 提取 能 力 ， 利 用 鉴别 器 得 到 的 特征 表示 可 进 
行 表情 分 类 。 因 此 分 类 器 共享 了 鉴别 器 的 部 分 卷 积 层 和 池 化 层 


来 提取 特征 ， 总 体 上 由 特征 提取 层 、 两 层 全 连接 层 和 Softmax 


分 类 层 构 成 ， 本 质 


2.4 损失 函数 


上 是 一 个 卷 积 神经 网 络 。 


首先 为 生成 器 定义 了 重 构 损失 函数 1 ， 它 是 通过 计算 生成 


网 络 输出 结果 


G(z) 和 原始 未 遮挡 图 像 y 对 应 位 置 像 素 点 i 的 像 


素 差 值 来 得 到 的 ， 本 文通 过 L2 范 数 来 衡量 ， 值 越 小 说 明 相 似 


度 越 高 。1 定义 为 


1=y (7 一 G(CD9 0) 
i=0 


为 了 让 生成 的 图 像 尽 可 能 真实 ， 本 文 引入 了 对 抗 损失 7 ， 


生成 器 G 希望 输 昌 
望 能 准确 判断 输入 图 


上 图 像 G(z) 能 够 迷惑 鉴别 器 D, 而 鉴别 器 则 希 
像 的 真 假 。 和 原始 GAN 对 抗 损失 的 定义 
一 样 ，/ 定义 为 如 式 〈2) 所 示 ，Pdata 为 标准 人 脸 图 像 的 数据 


分 布 ，p. 是 遮挡 的 人 脸 图 像 的 数据 分 布 。 


Ll, = min max 2 
G D 


,llogD 
puuco[ 08 (2] 本 0) 


cep allogd- D(G(z)))] 


在 分 类 器 中 ， 采 用 交叉 炉 损失 7 来 训练 表情 多 分 类 ， 交 叉 
灶 描 述 了 预测 的 概率 分 布 q(x) 和 真实 概率 分 布 p(x) 之 间 的 距离 。 


人 定义 为 


人 =-》P(COlogd(9) (3) 

模型 的 总 体 损失 函数 工 由 1 、1 和 7 三 部 分 构成 ， 定 义 为 
L=L + + (4) 

因子 ， 用 于 平衡 二 分 类 和 多 分 类 损失 的 比 


其 中 :多 和 如 是 权 


3 ”遮挡 表情 识别 


本 文 实验 在 16GB 内 存 的 NVIDIA GeForce GTX 1080Ti 的 


GPU 工作 站 上 进 


行 ,2 


基于 标准 人 脸 表 情 数据 集 CK+ 来 衡量 模型 


对 遮挡 人 脸 的 表情 识别 能 力 。 由 于 CK+ 数 据 量 较 小 ， 需 先 利用 


CelebAD0? 人 脸 数 据 集 对 人 脸 填 补 模块 生成 器 和 鉴别 器 进行 预 


训练 ， 再 加 入 分 类 器 在 CK+ 数 据 集 上 进一步 微调 。 


录用 稿 


3.1 


CK+ 数 


数据 集 处 理 
居 集 包括 123 个 人 


595 例 的 表情 序列 ， 包 含 从 中 


性 到 表情 
的 标签 ， 

茂 视 和 和 恐 惧 )。 
表情 以 


该 表情 


像 术 


情 ，260 张 悲伤 表情 


峰值 的 所 有 图 像 帧 ， 
分 为 7 种 表情 〈 莫 


为 了 扩大 样 


将 图 像 序列 
本 。 共 得 到 35 


，627 张 快乐 表情 ，482 张 愤 怒 表 情 ， 


其 中 仅 有 327 例 图 像 序列 有 明确 
备 、 快 乐 、 人 愤怒 、 厌 恶 、 惊 讶 、 


非 


本 量 ， 同 时 考虑 实用 性 ， 加 入 非 峰 值 

首 强 模型 的 泛 化 能 力 。 

中 性 表情 样本 ， 
图 


将 每 例 图 像 序列 的 开始 图 像 作为 
中 接近 表情 峰值 的 若干 张 图 像 作 为 
59 张 表情 样本 , 其 中 876 张 中 性 表 
417 


张 厌恶 表 情 ，640 张 惊讶 表情 ，257 张 恐 惧 表情 。 


为 了 进 
的 问题 
后 内 
右 。 


， 对 数据 集中 的 数据 
有 10537 张 表 情 图 像 ， 


步 扩 大 样本 量 


随机 选择 其 中 的 1/5 作为 测试 集 ， 甚 余 


， 并 解决 各 类 表情 样本 数量 不 均衡 
进行 镜像 翻转 、 旋 转 等 操作 ， 扩 展 
各 类 表情 图 像 的 数量 在 1200 张 左 
4/5 为 训练 集 ， 同 时 


满足 测试 集 和 训练 集 


的 人 物 


信息 不 交叉 。 


CelebA 人 脸 数据 集 来 源 于 香港 中 文大 学 , 包含 10177 个 名 


人 的 202599 


别 能 力 。 


随机 选 


被 


张 人 脸 图 像 。 选 取 裁剪 出 人 脸 部 分 的 图 像 作 为 本 
文 基础 训练 数据 集 ， 
15 数据 用 于 测试 模型 生成 器 的 填补 能 


择 其 中 的 4/5 作为 训练 集 ， 
以 及 鉴别 器 的 


剩余 的 
假 判 


3.2 图 像 预 处 理 及 遮挡 模拟 


为 了 


尽量 避免 光照 和 姿态 变换 等 因素 对 表情 识别 


需要 做 儿 


像 预 处 理 。 


首 
权 平 均 法 对 彩色 人 脸 图 像 进 


衡 化 处 理 


先 对 人 脸 图 像 进行 归 


的 干扰 ， 
化 处 理 ， 采 用 


行 灰 度 化 处 理 ， 随 后 进行 直方 图 均 


， 在 不 损失 图 像 信 
减少 光照 因素 的 干扰 


i 根据 检测 出 


息 的 基础 上 ， 降 低 图 像 数 据 大 小 ， 
的 人 脸 关键 点 (通常 在 眼角 、 


子 、 嘴 


巴 、 脸 轮廓 的 位 


) 进行 人 脸 对 齐 校 准 


， 可 消除 头 部 


姿势 不 同 对 后 续 操 作 带 来 的 误差 ， 同 时 人 脸 各 个 器 官 部 位 在 相 


对 固 


定 的 位 置 将 有 
OpenFaceB20 的 人 脸 对 齐 算法 ， 
面部 特征 点 来 对 齐 人 脸 图 像 ， 


助 于 特征 的 提取 和 分 析 。 本 文 使 用 ] 


采用 集成 回归 树 (ERT) 20 估 计 


整 为 128X128。 


现实 生活 中 一 般 存在 两 种 i 
动产 生 的 临时 遮挡 ， 


系统 遮挡 DC2]。 


最 终 校 准 后 统一 将 图 像 的 大 小 调 


LE 


， 一 种 是 由 于 手 或 者 头 部 运 


男 一 种 则 


墨镜 、 口 单 、 围 巾 等 引起 的 
用 的 、 成 熟 的 遮挡 人 脸 表情 


于 目前 没 


数据 集 ， 因 此 本 文通 过 在 人 


来 模拟 眼 部 、 


统 遮挡 和 临时 遮挡 。 


对 [3 所 示 。 


pa 字 需 


通 
像 的 不 同位 置 添加 黑色 无 形 框 


[7 


路 部 和 


随机 让 


当 ， 分 别 对 应 眼镜 、 口 旱 引 起 的 系 


经 过 图 


像 预 处 理 和 遮挡 模拟 后 的 人 脸 图 像 


Tl 


经 过 人 脸 对 齐 


操作 ， 图 像 中 的 面部 器 官 基本 在 同 


位 置 ， 对 图 


民 部 遮挡 面 


像 中 国定 位 


为 整个 图 像 的 25%。 
于 模拟 位 置 不 固 
60% 时 ， 表 情 识别 意义 不 大 ， 故 不 作 分 析 。 


50%、60% 用 
超过 


置 进行 遮挡 即 可 简单 模拟 系统 庶 j 
积 大 约 为 整个 图 像 的 15%， 嘴巴 谈 挡 面 
另外 随机 和谈 挡 


积 大 约 
10%、20%、30%、40%、 


定 的 临时 遮挡 , 本 文 认为 遮挡 面积 


3.3 未 填补 前 表情 分 类 器 的 对 比 实验 


为 了 进 


步 说 明 对 遮挡 人 脸 图 像 进行 填补 的 意义 以 及 和 本 
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文 模型 进行 对 比 ， 本 文 在 填补 修复 遮挡 人 脸 图 像 前 ， 直 接 使 用 
了 卷 积 神经 网 络 对 遮挡 人 脸 图 像 进行 了 实验 ， 同 样 采用 了 
VGG16。 但 可 供 训练 的 数据 量 较 少 、 网 络 较 深 导致 模型 从 头 训 
练 难以 达到 很 好 的 效果 。VGGface 的 权重 是 在 LFW (labeled 
faces in the wild ) 数据 集 231 上 训练 得 到 的 ， 可 用 于 与 人 脸 图 像 
相关 的 训练 。 基 于 迁移 学 习 的 思想 ， 本 文 使 用 了 VGGface 的 权 
重 , 在 CK+ 数 据 集 上 进行 微调 ， 能 够 快速 收 化 且 不 需要 很 大 的 
数据 量 。 实 验 中 采用 了 两 种 方法 来 训练 卷 积 神经 网 络 ， 方 法 1 
了 标准 的 人 脸 图 像 进行 训练 ， 方 法 2 则 将 遮挡 的 人 脸 图 


像 也 加 入 了 模型 的 训练 。 


攻 


人 


无 遮挡 眼 部 遮挡 路 部 遮挡 
随机 遮挡 10% 随机 遮挡 20% 随机 遮挡 30% 
随机 遮挡 40% 随机 遮挡 50% 随机 遮挡 60% 
图 3 ”图像 预 处 理 和 遮挡 模拟 


3.4 本 文 模 型 训练 

为 了 有 效 地 训练 模型 ， 将 整个 模型 的 训练 过 程 分 为 两 大 部 
分 ， 分别 是 对 人 脸 填 补 网 络 和 表情 分 类 网 络 的 训练 。 模 型 首先 
在 celebA 数据 集 上 训练 人 脸 填 补 网 络 , 先 使 用 重 构 损失 训练 生 
成 器 使 其 得 到 一 个 模糊 的 填补 内 容 ， 接 着 加 入 鉴别 器 对 抗 损 失 
〈 即 二 分 类 损失 ) 来 联合 训练 ， 模 型 使 用 Adam 优化 器 ， 初 始 
学 习 率 为 0.0002, 剩余 的 Adam 超 参 数 设置 为 默认 值 ，50 次 迭 
代 后 学 习 率 下 降 一 个 量 级 。 当 GAN 模型 接近 纳什 均衡 ， 二 分 
类 准确 率 大 约 0.5 时 ， 鉴 别 器 几乎 不 能 判断 输入 样本 的 真 假 ， 
此 时 不 再 使 用 CelebA 数据 集 , 而 是 在 CK+ 数 据 集 上 进行 微调 ， 
同时 加 入 了 表情 分 类 器 的 训练 ， 起 初 通过 设置 样本 权重 ， 让 模 
型 使 用 填补 图 像 和 无 遮挡 图 像 各 一 半 训 练 二 分 类 器 ， 而 仅 使 用 
无 遮挡 图 像 训练 多 分 类 器 , 经 过 30 次 迭代 后 , 将 填补 图 像 也 加 
入 到 多 分 类 器 的 训练 。 


注 


个 里 
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4 ”实验 结果 及 分 析 


4.1 未 填补 前 表情 分 类 器 的 实验 结果 
经 4.3 中 两 种 方式 训练 VGGface 后 ， 对 不 同类 型 的 遮挡 人 


脸 图 像 都 进行 了 测试 ， 结 果 如 表 1 所 示 。 

表 1 基于 VGGface 的 表情 识别 实验 结果 
遮挡 类 型 遮挡 面积 方法 1 方法 2 
无 遮挡 0 97.23 97.57 
随机 遮挡 10% 40X40 80.46 94.98 
随机 遮挡 20% 60X60 59.93 92.75 
随机 遮挡 30% 70X70 49.71 89.69 
随机 遮挡 40% 81X81 42.56 77.51 
随机 遮挡 50% 90X90 25.69 67.57 
随机 遮挡 60% 99X99 15.53 51.40 
眼 部 遮挡 (15%) 25X95 89.90 92.69 
中 部 遮挡 (25%) 40X100 48.24 87.34 


可 以 看 出 ， 对 于 无 遮挡 的 人 脸 图 像 ， 卷 积 神经 网 络 能 够 很 
好 地 提取 特征 并 进行 分 类 ， 但 随 着 人 脸 遮挡 面积 的 增加 ， 表 情 
识别 准确 率 锐 减 。 将 遮挡 人 脸 加 入 训练 ， 实 验 发 现 将 遮挡 面积 
较 小 的 人 脸 图 像 加 入 训练 ， 相 当 于 进行 了 数据 增强 ， 模 型 整体 
的 识别 准确 率 上 升 ， 但 当 将 大 面积 遮挡 的 人 脸 图 像 也 加 入 训练 
时 ， 遮 挡 面 积 较 小 的 人 脸 图 像 的 表情 识别 准确 率 会 有 所 下 降 ， 
因此 ， 本 文 仅 使 用 了 遮挡 面积 小 于 等 于 30% 的 人 脸 图 像 用 于 训 
练 ， 最 终 遮挡 人 脸 图 像 的 测试 准确 率 有 所 上 升 ， 但 与 无 遮挡 的 
表情 识别 准确 率 有 较 大 差距 ， 仍 需 进 一 步 提高 ， 尤 其 是 遮挡 面 
积 大 于 30% 的 时 候 。 
4.2 ”本 文 方法 实验 结果 分 析 

本 文 模型 的 填补 效果 如 图 3 所 示 。 让 挡 类 型 从 左 到 右 分 别 
是 随机 遮挡 10%， 随 机 让 挡 20%， 随 机 遮挡 40%， 眼 部 遮挡 以 
及 嘴 部 遮挡 ， 第 1 列 和 第 4 列 是 中 性 表情 ， 第 2、3、5 列 依次 
是 茂 视 ,惊讶 和 高 兴 的 表情 。 其 中 第 一 行 是 遮挡 前 的 原始 图 像 ， 


第 二 行 是 遮挡 后 的 人 脸 图 像 ,第 三 行 是 人 脸 填补 修复 后 的 结 


i qe 
| Me 


图 3 ”遮挡 人 脸 填补 结果 
图 3 可 以 看 出 ， 经 过 人 脸 填补 修复 ， 整 个 人 脸 图 像 看 上 
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判别 ， 实 验 结果 如 图 4 所 示 。 为 了 对 比 填 补 前 后 人 脸 表 情 识别 
效果 ， 在 填补 前 采用 了 4.1 节 中 的 方法 2 直接 对 遮挡 人 脸 图 像 
进行 了 表情 识别 。 可 以 看 出 ， 人 脸 填 补 模型 整体 上 提升 了 遮挡 
表情 识别 的 准确 率 ， 当 遮挡 面积 小 于 60% 时 ， 模 型 整体 识别 率 
还 在 80% 以 上 , 较 方法 2 直接 使 用 卷 积 神 经 网 络 提升 了 28.96%， 
而 在 遮挡 面积 较 小 的 情况 下 , 模型 的 识别 准确 率 提 升幅 度 较 小 。 
考虑 模型 的 处 理 时 间 、 系 统 资源 等 方面 因素 ， 在 遮挡 面积 小 于 
面部 面积 10% 时 ， 可 不 进行 填补 ， 直 接 使 用 卷 积 神经 网 络 进行 


识别 。 
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图 4 遮挡 人 脸 表 情 识 别 的 对 比 实验 结果 
4.3 ”对比 其 他 方法 

本 文选 取 了 文献 [24] 的 PCA+SVM 方法 、 文 献 [6] 的 稀疏 表 
示 方 法 (sparse representation based classification, SRC ) 以 及 CNN、 
DCGAN [3JHCNN 方法 来 进行 对 比 ， 其 中 CNN 的 方法 即 4.1 
的 方法 2, DCGAN+CNN 方法 中 DCGAN 用 于 填补 遮挡 人 脸 轿 
像 ，CNN 同 为 微调 的 VGGface 模型 ， 用 于 人 脸 表 情 分 类 。 所 
有 方法 都 在 CK+ 数 据 集 上 进行 了 实验 ， 结 果 如 表 2 所 示 。 可 以 
看 出 ， 无 论 人 脸 图 像 是 否 存在 遮挡 ， 本 文 方法 的 表情 识别 准确 
率 都 较 高 ， 深 度 学 习 方法 中 DCGAN+CNN 方法 虽然 也 对 人 脸 
图 像 进 行 了 填补 ， 但 得 到 的 图 像 连贯 性 较 差 ， 影 响 了 表情 识别 
的 准确 率 ， 尤 其 是 遮挡 面积 小 于 40%， 该 方法 的 表情 识别 准确 
率 甚至 小 于 仅 用 CNN 的 准确 率 。 而 本 文 的 方法 避免 了 图 像 不 
连贯 对 表情 识别 的 影响 ,在 人 脸 遮挡 面积 60% 时 , 仍 能 达到 80% 
以 上 的 识别 准确 率 。 
表 2 与 其 他 方法 对 比 实验 结果 


随机 遮挡 随机 遮挡 随机 遮挡 随机 遮挡 随机 遮挡 随机 谈 挡 
方法 无 遮挡 


二 


10% 20% 30% 40% 50% 60% 


PCA+SVM 91.23 89.32 85.93 84.13 793.23 68.87 54.97 
SRC 02.79 90.23 88.69 83.97 80.00 70.23 55.78 
CNN G17 94.98 92.75 89.69 TT pe 51.40 

DCGAN+CNN 97.57 89.30 86.33 83.93 78.94 70.91 61.92 


本 文 模型 97.57 96.45 95.11 93.34 92.02 85.89 80.34 


5 ”结束 语 


实际 应 用 中 局 部 遮挡 问题 导致 表情 识别 的 准确 率 不 够 理想 ， 
与 在 标准 人 脸 表情 数据 集 上 取得 的 高 识别 率 差 距 明 显 。 本 文 提 


去 真实 连贯 ， 未 遮挡 区 域 可 能 发 生 细微 变化 ， 但 一 般 不 会 影响 
人 脸 图 像 的 表情 类 别 。 
将 填补 后 的 人 脸 图 像 输 入 到 表情 分 类 网 络 中 ， 对 表情 进行 


出 了 一 种 基于 GAN 的 遮挡 表情 识别 模型 ， 对 人 脸 图 像 中 遮挡 
缺失 的 部 分 先进 行 填补 修复 ， 再 基于 卷 积 神经 网 络 进行 表情 识 
别 。 将 遮挡 人 脸 图 像 作为 输入 条 件 ， 由 卷 积 自 动 编码 机 构成 的 
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生成 器 输出 一 张 完整 的 人 ol a sna 
生成 的 人 脸 图 像 更 加 逼真 自然 。 将 鉴别 器 和 分 类 器 的 特征 提取 
部 分 整合 在 一 起 , 利用 常规 的 人 脸 图 像 数据 集 celebA 对 其 权重 
参数 进行 预 训练 , 最 后 在 CK+ 数 据 集 上 进行 微调 得 到 了 很 好 的 


分 类 结果 。 经 实验 ,本 文 方法 填补 的 人 脸 图 像 直观 上 真实 连贯 ， 
填补 后 的 表情 识别 率 较 其 他 方法 更 高 。 模 型 尤其 提高 了 大 面积 
遮挡 人 脸 图 像 的 表情 识 


! 别 准确 率 。 
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